人工智能最想删掉的视频,再不点进来看就没机会了

来源: 科普中国  发布时间:2025-09-11

前段时间举行的世界人形机器人运动会上,机器人们各种“出洋相”的视频大家还印象深刻吧!没看到的请下滑欣赏起来,看过的就再看一遍!(无论看多少次都很想笑啊!)(多 gif 预警~)

图片

图片

古风小机器人来也

图片

叠罗汉和再起不能

图片

机器人撞人事件

图片

哎呦这地儿是不是不平啊

图片

我头呢我头呢

图片

我倒了,大家加油

在田径、足球、拳击等项目中,最引人注目的无疑是百米短跑。当发令枪响,一台名为“具身天公 Ultra”的人形机器人从起跑线上冲出,它由北京人形机器人创新中心自主研发的机器人,最终以 21.50 秒的成绩夺冠。而在所有硅基运动员中,“天公 Ultra”是唯一一台采用全自主导航系统,全程无需人工遥控在赛场奔跑的选手

图片

宇树科技王兴兴赛后总结

相信大家在看完运动会中机器人的诸多洋相精彩表现之后,会产生一些疑问:

为什么学会奔跑——这个人类幼童即可掌握的技能——对机器人而言如此困难?为什么不让轮胎机器人参赛,着重于“人形”机器人?

这些问题,将我们引向一个重新审视“智能”本质的概念:具身智能。这意味着 AI 试着从虚拟的数字空间回归物理现实,从抽象的符号处理走向与世界互动的真实存在。

莫拉维克悖论

要理解机器人奔跑的意义,我们必须首先面对人工智能领域一个基本难题,即 莫拉维克悖论(Moravec's Paradox)。

这是由人工智能和机器人学者所发现的一个和常识相左的现象,在 1980 年代提出,其核心是:人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。

如莫拉维克所说,要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

莫拉维克曾经根据自己的研究,绘制了一张“人类能力景观图”。

图片

在这张图中,被海洋所淹没的部分就是当时已经可以被人工智能和机器人所取代的工作,而随着海平面的上升,岸边、平原和高原的技能对AI来说难度逐渐上升。

莫拉维克悖论的根源来自于生物演化的漫长历史。人类引以为傲的抽象推理能力,如逻辑和数学,从演化的时间尺度上看,是最近几千年才发展出的新能力。莫拉维克将其形容为人类思想最薄的一层表皮 。

与之相反,感知和运动控制这些我们几乎不假思索就能完成的“简单”技能,是历经数亿年自然选择精心雕琢和优化的结果。大脑皮层中,有大量区域用于视觉、听觉、运动控制等感知与行动。我们低估了这些任务的复杂性,正是因为它们演化得非常高效,以至于大部分过程在我们无意识时就已完成了。

图片

但随着深度学习、神经网络和传感器技术的发展,某些“莫拉维克难题”已经被部分攻克,“具身智能”也逐渐在现实世界崭露头角。

具身智能

具身智能(Embodied Intelligence)是一种强调智能系统必须拥有物理身体,并通过这个身体与动态、复杂的真实环境进行实时交互,从而在交互中学习、优化并展现其智能的理论。

图片

具身智体的典型架构

其实质是人工智能与机器人技术的深度融合:AI 为机器人提供“大脑”,使其具备感知、思考和决策的能力;而机器人则为 AI 提供“身体”,使其能够与真实世界互动,获取经验和知识 。

AI 领域著名大佬李飞飞曾指出:“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。

图片

具身智能的体系架构

早在 1950 年,艾伦・图灵发表了经典的《计算机器与智能》(Computing Machinery and Intelligence)一文,标志着人工智能理论的奠基。

在这篇论文的最后两个段落里,图灵展望了人工智能未来可能的两种发展途径。一种是比较抽象的、比如算术所需的智能,一种则是拥有感官、能学习甚至能说英语的智能。而后者,正是具身智能。

1986年,美国计算机科学家罗德尼・布鲁克斯从控制论角度出发,强调智能是具身化 (Embodied) 和情境化的。换言之,智能体必须拥有“身体”才能由虚拟世界进入到真实世界并通过与真实世界的交互来发育或进化出智能。

1991 年,布鲁克斯提出了“行为智能”,认为智能系统应直接通过与环境互动来体现其高度的适应性,而非依赖内部模型。这一工作引导研究者从计算能力转向身体与环境的交互。

图片

罗德尼・布鲁克斯

2023 年,英伟达创始人黄仁勋在半导体大会上指出,具身智能是能够理解、推理并与物理世界互动的智能系统,预示着其将成为人工智能的下一波浪潮。

2025 年,“具身智能首次被写入政府工作报告,成为未来产业发展的重点方向之一。

今年举办的全球机器人马拉松、世界机器人大会、世界人形机器人运动会,都让最新的机器人乃至具身智能“幼儿”们一个亮相的机会。

图片

没“断奶”也可以来比赛!

具身认知

如前文所言,图灵对人工智能未来的展望,除了具身智能,它的对立面则是我们更为熟悉的——离身智能(Disembodied Intelligence)。

像 ChatGPT 或 AlphaGo 这样的模型,就是离身智能的典型代表。它们存在于服务器的虚拟世界中,处理的是抽象的符号数据(文字、图片、棋盘状态),能够输出信息,但无法直接作用于物理世界。

AlphaGo 虽然精于棋局推演,但面对真实的棋盘,它可能连一颗棋子都拿不稳。

但具身智能与离身智能并不相互排斥, 特别是在方法层面上, 包括深度学习、强化学习等方法都已成为解决离身智能和具身智能问题的重要工具。

图片

具身智能的核心机制,是感知-行动循环

这与传统 AI 线性的“输入数据-输出答案”模式截然不同。具身智能体在一个持续不断的闭环中运作:它通过传感器(如摄像头、触觉传感器)感知世界;这种感知信息经过处理,形成决策,并驱动执行器(如马达、机械臂)产生行动;行动改变了智能体自身以及环境的状态;这种改变又立刻被智能体感知到,形成新的输入,从而开始下一轮循环。

在这个循环中,感知与行动互为因果,智能体不再是被动的决策器,而是能够主动干预物理世界并实时适应变化的能动主体。

图片

具身形态计算的典型信息论分析方法结构

这一循环,与认知科学中的具身认知不谋而合。

具身认知主张,人类的思维、感知、语言和情感等认知活动与身体的物理结构、感官体验和动作密切相关。认知不仅仅是大脑内的信息处理,而是身体与外部世界动态互动的产物。其包含了几个概念:

1.具身认知:认知不是抽象的符号操作,是通过身体和环节的互动实现的。身体不仅是认知的工具,更是认知内容的塑造者。

2.感知-行动循环:认知过程不仅依赖大脑的计算,还与身体的动作和感官反馈形成动态循环。若感知和行动被人为分离,认知能力会显著下降。

3.身体形态:身体的物理结构和动作模式在认知中起着至关重要的作用,人类的思维和概念受到身体形态的深刻影响。比如“抓握”这一概念就是来源于人类手指形态。

4.情景化:认知活动并非孤立,而是嵌入在具体的身体和环境背景中的。同样的动作在不同文化中可能具有不同的涵义。

在生物学验证上,通过著名的“小猫实验”(kittens experiment),验证了视觉、发展和运动之间的关系。

图片

科学家把两只小猫放进了圆筒内,圆筒内壁上画着竖条纹,两只小猫都在圆筒内部绕圈,称作“小猫旋转木马”,得到了相同的视觉输入。但它们的区别是——第一只小猫是自己走的,第二只小猫则被放在与中心轴相连的盒子里,被盒子带着移动。

结果发现,主动移动的小猫能够发展出正常的感官-运动系统,而被动移动的小猫则表现出严重的感官-运动障碍。这说明了自我运动与环境主动互动在视觉感知和协调的关键作用。

随着新的具身认知的发展,认知科学也能帮助具身智能更好的描摹这个世界,认识这个世界。

图片

竞争对手也可以抱一抱~

最后,让我们回到开头的世界人形机器人运动会,试想,为什么要用人形机器人?

(说起来,今年举办的机器人大会中,只有“运动会”的名字里加上了“人形”呢)

首先,我们的世界——从建筑、工具到社会规范——都是为人类的身体形态量身定做的。因此,制造人形机器人,拥有两只手两条腿,让它们能够无缝地融入我们的环境,是一个非常务实的选择。

图片

人,不要阻挡我的跳舞之魂

其次,机器人学习现实世界中的技能,能够直接学习现成的人类行为。比如对机器人学习打打乒乓球,可以直接观察人类动作进行多模态学习,分析人类的技巧、速度、肌肉等等。

还有,人们对具有人形的机器人有更多亲近感,也能更好理解彼此的动作信号——比如点头、比 ok 等等。

图片

当然,这些并不意味着非人形机器人的弱势。无论是宇树的四足机器人,还是场景赛中的分拣机器人,都以非人的方式呈现。根据具体的需要,能够以不同的形态更好地满足。

图片

真正的、通用的、拥有常识并能适应我们这个混乱且不可预测的世界的智能,不可能在纯粹抽象的数字真空中诞生。它需要被具身化、它需要拥有一个身体,去与世界互动,去将其知识植根于物理经验,去在永不停歇的感知与行动的循环中学习和进化。

图片

机器人,幸会

参考文献

[1]陈思维(2024). 具身认知研究进展综述.心理学进展, 14(1), 387-394. DOI: 10.12677/ap.2024.141054

[2]https://zhuanlan.zhihu.com/p/1920853960635450532

[3]https://www.simplypsychology.org/held-and-hein-1963.html

[4] Huaping Liu, Di Guo, and Angelo Cangelosi. 2025. Embodied Intelligence: A Synergy of Morphology, Action, Perception and Learning. ACM Comput. Surv. 57, 7, Article 186 (March 2025), 36 pages.

[5] https://www.zhihu.com/question/398460589

[6] https://news.qq.com/rain/a/20250821A03OGO00

[7] https://mp.weixin.qq.com/s/lZH4oM3WJPfpsFG8D6hrtA

[8] https://mp.weixin.qq.com/s/Sw6FPYlVM6DCWTCCInKgyA

[9] https://mp.weixin.qq.com/s/aNbIV7sa7G-97axStFtE7Q

策划制作

来源丨中科院物理所(id:cas-iop)

责编丨甄曦

审校丨徐来、张林林

本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷



版权与免责声明
【1】本网站凡注明“学会秘书处”的所有作品,版权均属于四川省金属学会所有,未经书面授权,任何媒体、网站或个人不得转载、摘编或利用其它方式使用上述作品。已经本网站协议授权的媒体或网站,应在授权范围内使用上述作品,并注明“来源:四川省金属学会”。违者本网站将追究其相关法律责任。
【2】本网站凡注明“来源:XXX(非学会秘书处)”的作品,均转载自其它媒体,登载此作品出于传递更多信息之目的,不代表学会观点或证实其描述,不对其真实性负责。作品内容仅供参考,如转载稿件涉及版权等问题,请在两周内来电或来函与四川省金属学会联系。

关闭
二维码

关注学会
微信公众号

二维码

访问学会
手机版